#Kimi K2
中國AI大模型霸榜!
春節期間國產大模型的使用情況可謂如火如荼。OpenRouter最新周度資料顯示,平台前十模型總token量約8.7兆,中國模型獨佔5.3兆,佔比61%。當周token呼叫量前三模型均為國產大模型,分別為Minimax M2.5、Kimi K2.5、GLM-5,呼叫量環比上周分別變動增加197%、下降20%、增加158%。其中,MiniMax M2.5以2.45兆token空降榜首,Kimi K2.5以1.21兆緊隨其後,智譜GLM 5和DeepSeek V3.2分列第三、第五。OpenRouter是全球最大的大模型API聚合平台,可為開發者提供統一API介面,以訪問全球數百種大語言模型。其核心功能包括多模型呼叫、智能路由最佳化和透明的性能排行榜,旨在解決多模型整合複雜和廠商封鎖問題。從該平台提供的資料看,程式設計(Coding)和智能體(Agent)正成為大模型的兩大核心比拚點。OpenRouter整體呼叫量近期大幅攀升。官方確認,M2.5帶動了100K至1M長文字區間的增量呼叫需求,這個區間正是智能體工作流的典型消耗場景。論token呼叫量,在此平台排名前三的國產大模型都聚焦於提升程式設計能力和智能體(Agent)任務的自動化水平,是2026年初國產大模型在應用層面的重要突破。稀宇科技(MiniMax)於2月13日發佈MiniMax M2.5,稱該模型為全球首個為智能體場景原生設計的生產級旗艦模型。其發佈後七天的呼叫量即突破3.07T tokens,憑藉在程式設計和Agent工作流中的卓越性能與極低的成本,成為開發者首選。月之暗面(Moonshot AI)於1月27日發佈KimiK2.5,該模型採用原生多模態架構,能通過調度多達100個“Agent分身”平行工作,將複雜任務效率提升3到10倍。該模型在多個細分榜單(如程式設計、工具呼叫)中均排名第一,其呼叫量遠超Gemini 3和Claude模型。據澎湃新聞報導,該大模型發佈不到一個月,Kimi近20天累計收入已超過2025年全年總收入,增長主要受全球付費使用者及API呼叫量大漲共同推動,其中海外付費使用者數快速增長。智譜於2月12日發佈GLM-5,該模型參數規模進一步擴展,採用了稀疏注意力機制,是其專為複雜系統工程與長程Agent任務設計的旗艦模型。憑藉免費、200K上下文窗口等優勢,該模型發佈後使用者迎來高速增長,智譜對Coding Plan先後進行了限售、漲價等動作,除夕當天官宣全網尋找“算力合夥人”。隨著AI模型應用場景深化,使用者從簡單問答轉向複雜工作流,如讓模型重構程式碼、改寫檔案、生成文件等,以及智能體模式普及,當前token消耗呈現明顯的“通膨”趨勢。性能提升的同時,國產模型仍以性價比優勢出圈。如MiniMax M2.5和智譜GLM-5相比Claude Opus 4.6具備顯著的成本優勢:在輸入環節,MiniMax M2.5與GLM-5的價格均為0.3美元/百萬token,而Claude Opus 4.6則高達5美元/百萬token,是前兩者的約16.7倍;在輸出環節,MiniMax M2.5的價格為1.1美元/百萬token,GLM-5為2.55美元/百萬token,而Claude Opus 4.6的輸出價格達25美元/百萬token,分別是MiniMax M2.5的約22.7倍和GLM-5的約9.8倍。上述國產模型並不能完全反映國內模型廠商的token呼叫量情況。據海通國際證券,資料顯示,火山引擎的大模型日均token呼叫量已從2024年底的2兆增長至2025年底的63兆;阿里雲外部客戶2025年日均token呼叫也已接近5兆,2026年目標至少15-20兆,內部業務日均呼叫則計畫從16-17兆拉到100兆。從全行業看,中國整體日均token消耗2024年初為1000億,2025年中突破30兆,2026年2月主流大模型合計日均token消耗已到180兆等級。東莞證券最新研報表示,隨著國產模型的程式設計、智能體能力提升,其呼叫量大幅增加,國產大模型在程式設計、智能體領域對標全球頭部模型,有望進一步加快應用落地,加速token消耗量上漲。長江證券此前表示,隨著程式設計和多模態模型和產品的逐步成熟,下游應用場景有望被真正打開,帶來大量的高品質token需求。參照海外AI產業發展規律,從資本開支投入到token需求爆發存在約兩年的滯後期。國內大廠的AI資本開支周期較海外滯後約一年,於2024年下半年開啟。因此,國內雲廠商收入已開始兌現增長,而token數量的真正爆發預計將在2026年到來。 (科創板日報)
春節 AI 模型大戰,誰是最大贏家?
國產大模型春節集體轉向「實幹派」,全球 AI 變革看北京。2026 年開年的科技圈,一場靜默的排位賽正在悄然改寫 AI 大模型世界的規則。1 月 27 日,月之暗面開源 Kimi K2.5,以「Agent Swarm」技術實現 100 個子智能體平行協作,將複雜任務執行效率提升數倍;2 月 7 日,字節視訊生成模型 Seedance 2.0 正式上線,憑藉多模態參考系統與原生音視訊同步能力引發全球創作者追捧;2 月 11 日深夜,智譜 AI 發佈新一代旗艦模型 GLM-5,在全球權威榜單 Artificial Analysis 中位居全球第四、開源模型第一。此外,阿里 Qwen3-Max-Thinking、DeepSeek-OCR2、生數、銀河通用、智源等模型也在同一時段密集亮相。海外廠商同樣動作頻繁。2 月 5 日,OpenAI 發佈 GPT-5.3-Codex 程式設計模型,並推出企業級 AI Agent 平台;同日,Anthropic 發佈 Claude Opus 4.6,不到半月後又推出定價更低的 Claude Sonnet 4.6 主攻智能體場景。諸神之戰,不一而足。幾乎所有公司都選擇在一個特殊的時間窗口登場——春節前後。傳統認知中,春節是使用者注意力分散、媒體曝光度下降的時段,並非科技產品發佈的黃金窗口。但 2026 年的這波集中發佈,恰恰利用了春節的場景豐富性:充裕的假期時間、家庭聚會、出行規劃、內容創作、社交娛樂。在全民行為高度集中的這一檔口,正是檢驗大模型能否從實際應用層面解決複雜任務的最佳測試時機。現在看來,這個時間節點絕非巧合,其背後的產業升級意義意味深長——這是國產大模型的一次集體轉型。在過去兩年,國產大模型更像是實驗室裡的「做題家」,核心解決的是使用者提問到模型作答的及時交付,比拚的是 benchmark 分數與響應速度;而這一波 AI 大戰,已經能夠清晰地看到,國產大模型正在向能真正處理複雜任務的「實幹派」轉變。模型不再滿足於給出答案,而是要獨立完成從理解需求、拆解任務、呼叫工具到交付成果的全流程。而我們發現,在這輪「實幹能力」的競賽中,一個值得注意的現像是,領跑者的地理坐標高度重合——它們大多聚集在北京海淀區。理解這種「海淀基因」,才能釐清國產大模型轉型的深層原因。01更加務實的智能軍團雖然這一輪國產大模型的集中發佈尚未結束,不過一個顯著的趨勢已經展現——更務實的評測維度正在取代傳統指標。過去對 AGI 的烏托邦式憧憬,正被算力成本與落地成效的硬約束快速拉回地面。無論是舊金山灣區還是中國一二線城市,資本與產業都已不再為單純的規模擴張敘事支付溢價——大模型正在從單純的技術探索,加速進入技術與需求雙向賽跑的商業化深水區。通俗一點來說,大模型不再只追求標準答案,更在考察在開放環境中的任務完成度,以及如何直接應用到普通人的生活中。此刻扎堆發佈的大模型,紛紛順勢而為。智譜發佈的 GLM-5 在這一輪的表現中頗為搶眼,其在 HumanEval 程式碼通過率達到 96.2%,不但超越前代 GLM-4.7 的 88.5%,更是超越了強勁的 Claude Opus 4.5(95.8%)。但比分數更重要的是,GLM-5 原生支援跨檔案程式碼重構,並能處理複雜系統工程程式碼倉。這意味著,智譜大模型已完成從「初級程式設計師」到「總架構師」的進化,重新定義了程式設計領域的生產力。而在過去專注「聊天」和提供情緒價值的字節,也同樣呈現務實轉向。以前做 AI 視訊,使用者得跟機器猜謎——寫一堆提示詞描述「夕陽下的古風少女」,結果出來可能是古裝也可能是和服。而在 2 月初發佈的字節 Seedance 2.0,則讓指向更清晰明確——用那個色調、某個角色的臉、那一段視訊裡的動作,甚至放段音樂讓它跟著節奏剪。這種多模態參考機制將創作主動權交還使用者,降低了反覆偵錯的試錯成本,使電商廣告、短影片製作等商業場景的產出更為穩定。也與海外模型形成對照:當 OpenAI 的 Sora 和Google Veo 2 仍主要依賴文字提示詞時,Seedance 2.0 將創作更貼近商業場景對確定性的需求。今年春晚舞台視覺《賀花神》的四季花神場景,正是該能力的落地展示——以四時花卉為主題,十二位演員對應十二種花神,每一個出場都伴隨著專屬場景。這背後正是字節大模型的圖像與視訊生成能力起到的作用,為節目定製「一月一人一景,一花一態一觀」的視覺效果。春晚賀花神效果圖打破邊界的,還有大模型的另一種存在載體——具身智能。1 月 8 日,銀河通用發佈多載機器人 Galbot S1,實現零遙操全自主作業,雙臂負載達 50 公斤。與特斯拉 Optimus 等海外人形機器人側重工廠場景不同,Galbot S1 的手腦協同設計更聚焦室內泛化能力——春晚上銀河通用與沈騰、馬麗的互動展示,正讓我們看到了機器人手腦一體的無限可能,未來無數室內場景的泛化能力正源於具身智能大腦模型的佈局。銀河通用春晚節目圖AI 從數字世界來到物理世界,大模型公司正在用一條相對紮實的路,在填補過往實用性不足的坑——聽懂人話、把事情幹成。這和人們通常所理解的商業溢價的區別是,AI 普惠化不是市場競爭手段,而是技術發展的目的。2025 年,國產大模型對行業標竿的理解發生了根本轉變。技術評測的領先僅證明能力上限,而商業價值的衡量標準已轉向規模化的可及性與經濟性——單位算力所能支撐的實際產出效率,成為更具份量的評判維度。市場端的反饋更為直接。經過兩年多的技術演示期,無論是企業還是終端市場,都在提出更為具體的需求:模型能否自動處理報銷流程,能否協調多個軟體完成市場調研,能否在無人監督的情況下執行周期較長的項目。大模型的實際執行能力已成為企業採購決策的核心考量,推動研發方向從追求技術突破轉向保障交付質量。春節場景為產品實用驗證提供了特殊環境。家庭聚會涉及菜譜生成、採購規劃、智能裝置控制等協調需求;長途出行需要整合交通預訂、酒店比價、行程最佳化等多平台資訊;內容創作則要求模型理解節日文化、平台調性及傳播規律。這些任務無法通過單次問答完成,需要模型具備任務分解、工具呼叫、異常處理及結果整合能力。2026 年春節的集中發佈,實質是廠商將產品置於真實場景的壓力測試,假期積累的使用者反饋將為後續產品迭代提供資料支撐。02 海淀基因當技術理想主義與商業現實主義融合時,「覺醒」往往發生在一片讓創新既能紮根又能拔節生長的土壤上。放眼全球,人工智慧的競賽早已超越單一企業的角力,演變為區域創新生態的系統較量。矽谷憑藉史丹佛-伯克利的人才輸送、風投體系的成熟配套、以及「快速試錯」的文化基因,長期佔據全球 AI 產業的高地。但 2026 年春節檔的集體爆發,清晰地顯示出中國創新版圖正在形成自己的「強節點」——北京海淀便是其中最具代表性的樣本。在這片 430 平方公里的地界上,創新的密度可以被具象化地測量出來,在這裡,15 分鐘車程幾乎就能構成一個創新單元——智譜 AI、百川智能、面壁智能……他們齊聚在清華科技園裡。往東一公里,生數科技在中關村東路 8 號東昇大廈探索多模態生成,與智源研究院的成府路 150 號(清華南門)隔街相望。往南一點,月之暗面在知春路 76 號京東科技大廈迭代長文字模型,與字節跳動的大鐘寺工區直線距離不到 3 公里——後者旗下的 Seedance 團隊正依託這片人才密度,在多模態視訊生成領域快速推進。更具縱深感的是人才的流動與重組。愛詩科技創始人來自字節視覺團隊,辦公室設在蘇州街,與原工區直線距離 2 公里;而銀河通用、星動紀元、靈心巧手三家具身智能公司,則集中在海淀區的核心地段,彼此車程都在 15 分鐘內,卻各自探索多載機器人、人形機器人、靈巧手等不同路線。這種集聚並非偶然,而是產業生態的必然結果。北京海淀,作為全國人工智慧產業的核心集聚區,其角色值得客觀審視——它並非簡單的「政策普惠」或「資本密集」,而更像是基礎研究到真實落地的完整鏈條。具體而言,海淀區已經建構了一個基本自主可控的全產業鏈技術體系,底層有清華、北大等高校的前沿研究輸出人才和方法論;中間層由晶片、雲端運算等基礎設施企業提供算力支撐;應用層則有大量場景型企業提供測試環境和需求反饋。這種密度使得技術迭代周期顯著縮短。生態的成熟度,直接塑造了國產大模型的差異化路徑。與矽谷巨頭追求「通用智能」的宏大敘事不同,海淀系企業更強調「垂直穿透」:在這裡,百度佈局全端、寒武紀佈局晶片、智譜清研專注 B 端、快手可靈偏向文娛落地、字節偏向 C 端、月之暗面偏向長文字思考。各尋其位,各盡其能。事實上,政策環境的演進同樣關鍵。2023 年,北京市率先出台地方性大模型產業支援政策,海淀區同步提出建設 2300 億元規模的核心產業叢集,配套人才落戶、資金扶持、場景開放等綜合措施。如今這一資料已經超過 3500 億。同時,海淀推出中關村科學城科技成長基金,經過三期發展規模已達 200 億元,明確將投資重心前移,聚焦早期項目、小型企業、長期價值及硬科技領域。這種「耐心資本」的供給,顯著改善了創新型企業的心理預期與風險偏好。但海淀的真正價值,或許不在於政策紅利的獨享,而在於其作為「創新方法論」的輸出地。從 2010 年代中關村的創業大街,到移動網際網路時期的「巨頭搖籃」,再到如今的大模型集聚區,海淀始終扮演著技術商業化「加速器」的角色。早期的網際網路創業培育了風險資本的敏銳度、工程師文化的務實性,以及對「快速迭代、小步快跑」方法論的路徑依賴。這些基因延續至今,使得中國企業在面對大模型這一顛覆性技術時,表現出更強的工程化能力和商業化嗅覺。AI 原點社區將視野拉寬,這種「強節點」的崛起並非孤例。上海的張江、深圳的南山、杭州的餘杭,同樣在 AI 產業鏈的不同環節都形成特色優勢——這些都是值得區域學習的樣本。但海淀的獨特性在於其「全端覆蓋」——幾乎每一環都有代表性企業佈局。這種完整性,使其成為全球 AI 版圖中少數能與矽谷形成系統性對話的區域之一。傳統認知中,技術創新高度集中於少數全球城市;但大模型時代的競爭,越來越依賴「資料-場景-算力」的本地化閉環。中國龐大的數位化應用場景、完整的製造業體系、以及政策驅動的算力基礎設施,為區域創新生態提供了獨特的養分。海淀的集聚效應,正是這種國家能力在微觀層面的投射。當全球大模型產業進入「實幹能力」的比拚階段,區域生態的質量將直接決定企業的競爭力上限。03更好的時代所有技術革命的最終走向,一定承載著產業實踐的階段性註腳。這場集中爆發的轉型給產業和區域都提供了新的機會。春節檔的 AI 大戰,標誌著國產大模型進入產業價值驗證的關鍵周期。短期內,市場將迎來一次實幹能力的集中檢驗。期間積累的真實使用者資料與實際交付體驗,將幫助企業精準識別產品短板,加速迭代最佳化。例如,多智能體協作的穩定性、長視訊生成的時序一致性、複雜程式碼重構的可靠性等問題,只有在海量真實互動中才能充分暴露和修正。但大模型軍團現在的表現,已經影響深遠——目前,OpenAI、Google 等巨頭紛紛調轉船頭,開始密集推出針對企業級市場的高性價比推理模型。很長時間以來,全球人工智慧的聚光燈多投在矽谷。而 2026 年這個乍暖還寒的春天,分水嶺已經有了能捕捉的痕跡——算力封鎖沒有擊垮國產大模型,反而帶來了一抹得天獨厚的韌性。AI 製圖這註定是一條長期主義的道路,但不妨礙國產模型技術迭代節奏持續加快,產品更新周期從以年為單位縮短至以月甚至以周計算。這種敏捷響應能力的形成,客觀上為中國人工智慧產業提供了彎道超車的窗口期。而從管理者的角度來看,當大模型從「對話工具」進化為「數字員工」,「人」的身份也將發生變化,其社會影響將呈指數級放大——對於所有區域性政府而言,都需要在新階段裡尋找定位——這要求政策層面在持續降低創新成本的同時,建立適配新技術形態的治理框架。而經驗老道的管理者,顯然能更快提供合格的樣本。至少,站在 2026 年的端頭,國產大模型發展的重要節點。人們已經可以確定,全球新一輪大模型產業變革的方向與節奏,正日益取決於中國創新體系的突破能力與本土生態的支撐強度。 (極客公園)
Kimi K2.5登頂開源第一!15T資料訓練秘籍公開,楊植麟劇透K3
開源熱榜第一輪流做,現在花落Kimi。在Hugging Face上,Kimi K2.5登上了Trending榜首,下載量超過了5.3萬。Kimi K2.5主打Agent能力,在HLE-Full、BrowseComp等測試集中,成績超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗艦閉源模型。而且極具性價比,在BrowseComp上達到比GPT-5.2更高的表現,Kimi K2.5的資金消耗僅有不到5%。現在,官方的技術報告也已經亮相,Kimi K2.5怎樣練成,我們可以從中窺探一些答案。原生多模態,15T Token混合訓練Kimi K2.5在K2的架構基礎上,投入了15T的視覺與文字混合Token進行持續預訓練。它選擇了一條原生多模態的技術路線,讓同一套參數空間直接處理視覺訊號與文字邏輯。在15T這樣龐大的資料量級下,視覺理解與文字推理能力實現了同步增強,一改往日“此消彼長”的局面。這種統一的參數架構,讓模型能夠像理解語法結構一樣,精準解析像素背後的邏輯語義。有了這套原生底座,K2.5解鎖了“視覺程式設計”能力。因為能在像素層面進行推理,它具備了從視訊流直接逆向推導程式碼的能力。面對一段包含複雜滾動觸發特效或動態互動佈局的網頁演示視訊,模型能夠準確捕捉視覺元素隨時間軸變化的規律,並將其直接對應為可執行的前端程式碼。這一過程跳過了“視覺-文字”的中間環節,讓開發需求能夠以最直觀的視覺形式傳遞給模型,實現了從設計演示到程式碼實現的無損轉化,即便是極其複雜的動態互動邏輯也能被精準還原。為瞭解決程式碼能跑但樣式不對的問題,K2.5還整合了自主視覺偵錯機制,在程式碼生成並渲染出介面後,模型會呼叫視覺感知能力對實際運行的頁面進行驗收。一旦發現佈局錯位、樣式偏差或動畫異常,模型會自動觸發文件查詢工具,查閱相關技術文件定位問題,並對程式碼進行修正。這種“生成-觀察-查閱-修復”的自動化閉環,模擬了高級工程師的偵錯流程,讓模型具備了獨立完成端到端軟體工程任務的可靠性。超大規模“智能體叢集”為了能更好地解決複雜任務,Kimi K2.5還搭載了Agent Swarm架構。這是一套能自主建構百人規模數位化團隊的平行系統,讓模型獲得了“分身”能力,可以瞬間建立並編排多達100個子智能體,並支援呼叫1500個工具的平行工作流。這種機制將全網深度搜尋或海量資料分析等複雜任務,拆解為無數個同步進行的子任務,利用叢集算力大幅壓縮了處理時間。指揮這支龐大團隊運轉的是PARL(平行智能體強化學習)框架。該框架建立了一套嚴密的指揮體系,由核心的調度器和眾多子智能體構成。調度器如同指揮官,負責宏觀層面的任務拆解與分發;子智能體則作為執行層,在參數凍結的狀態下專注於高效完成具體指令。這種動靜結合的設計,既賦予了系統靈活規劃的能力,又保障了大規模平行操作的邏輯嚴密性。為了讓模型學會高效分工,訓練過程採用了一套階段性獎勵塑造策略。系統在初期會優先激勵調度器進行平行化探索,培養其“多管齊下”的直覺;隨著訓練深入,獎勵重心平滑過渡至任務的最終成功率。這種循序漸進的訓練方式,讓模型建立了在保證結果精準的前提下,最大化利用並行優勢的思維習慣。在效率評估上,系統引入了臨界步驟作為核心指標,基於平行計算的關鍵路徑原理,聚焦於調度開銷與最慢子智能體的耗時。這種機制倒逼模型在決策時,必須優先考慮如何縮短端到端的實際等待時間。只有在能切實提升響應速度的情況下,系統才會增加平行度,從而在極致速度與計算資源消耗之間找到了最佳平衡。楊植麟劇透Kimi K3K2.5上線後不久,月之暗面的三位創始人——楊植麟、周昕宇和吳育昕現身Reddit,來了一場長達3小時的AMA問答。面對全球開發者和的提問,他們直接把程式碼背後的思考、未來的劇透甚至尷尬的Bug都攤開來聊了個透。對於大家最關心的下一代Kimi K3,團隊給出了一個相當硬核的預告——它很可能基於線性注意力機制。楊植麟更是直言,雖然不敢打包票,但K3相比K2.5那怕沒有10倍的提升,也絕對會有質的飛躍。針對K2.5偶爾會自稱Claude的趣聞,團隊也給出了坦誠的解釋——這是因為Kimi“吃”了太多高品質的程式設計訓練資料,而這些資料裡充斥著Claude的名字 。這就像讀了太多某位作家的書,說話難免帶上對方的口頭禪。此外他們也對算力焦慮問題進行了回應,演算法負責人周昕宇拋出了一句“創新往往誕生於約束之中(Innovation loves constraints)” 。在他們看來,堆砌算力不是通往AGI的唯一路徑,在有限的資源下逼出更高效的演算法、更聰明的架構,才是這家實驗室真正的“登月”野心 。 (量子位)
國產大模型Kimi K2.5全球多榜單領先,推動AI向智能體演進
當前,全球AI大模型的技術焦點正從“對話互動”轉向“自主執行”。在這一趨勢中,國產大模型正展現出獨特的價值與影響力。近日,人工智慧企業月之暗面正式發佈並開源新一代大模型Kimi K2.5。作為該公司迄今最智能、最全能的模型,K2.5在視覺理解、程式碼生成與Agent叢集協作等方面實現重要突破,被AI業界視為國產人工智慧發展的又一標誌性產品。2025年初,DeepSeek-R1憑藉極高的推理效率火遍全球。一年後,月之暗面通過原生多模態與智能體能力的深度融合,進一步體現了國產基座模型在提升智能“密度”與實用效能方面的進階。隨著以Kimi K2.5為代表的AI大模型加速賦能千行百業,其廣泛的應用潛力越發凸顯。KimiK2.5模型全球多榜單領先自2023年成立以來,月之暗面先以“長文字”功能打開市場,隨後推出基於強化學習的K系列模型。這次K2.5的發佈,意味著公司在基礎模型研發上再進一步。相比2025年7月發佈的K2模型,Kimi K2.5模型意義重大。多項測試表明,K2.5在程式設計、視覺、推理和Agent(智能體)任務等多個領域達到國際先進水平。K2.5讓AI更“親民”。通過融合視覺、推理、程式碼和Agent能力,使用者現在只需拍照、截圖或錄屏,就能讓Kimi理解複雜需求,大大降低了與AI的互動門檻。發佈不到一周,來自美國、英國、德國、西班牙、新加坡等近20個國家超50家主串流媒體對Kimi K2.5進行了報導。該模型發佈後,迅速登上多個權威評測榜單前列。在第三方評測機構Artificial Analysis的最新榜單中,Kimi K2.5綜合性能位列全球前五,僅次於GPT-5.2、Claude Opus 4.5、GPT-5.2 Codex和Gemini 3 Pro Preview這四款閉源模型,在開源模型中居首。圖為評測機構Artificial Analysis發佈的最新模型排名Kimi K2.5還進一步提升了開源模型的程式碼水平,尤其是在前端開發領域,通過融合視覺能力降低了程式設計的門檻。比如,K2.5能自動拆解錄屏背後的互動邏輯,用程式碼進行完整復現。開發者社區的反響也十分熱烈。大模型聚合平台OpenRouter平台資料顯示,K2.5的呼叫量已進入全球前三,且仍在快速增長。LMArena榜單也顯示,其程式碼能力在開源模型中居首,總榜排名前三,是前十名中唯一的中國模型。知名程式設計工具Kilo Code近期資料顯示,K2.5已成為平台上呼叫量最高的模型。在程式設計的實際應用中,因具備視覺理解能力,Kimi K2.5模型也成為多家頭部大廠的首選,展現出廣泛的行業適配性。對普通使用者來說,Kimi K2.5模型將Agent能力擴展到日常辦公領域,它已具備處理Word、Excel、PPT、PDF等常用軟體的高階技能,能幫助使用者直接交付准專業水平的辦公文件。更值得關注的是,Kimi K2.5首次引入了“Agent叢集”能力,可以自主建立多達100個的數字“分身”,按需組成不同角色的團隊,平行工作,團隊作戰,獲得效率的極大提升。例如,使用者輸入40篇論文後,K2.5會先通讀全文,再派生子Agent分別撰寫不同章節,最後由主Agent整合成一份完整的PDF報告。這種“團隊作戰”模式極大提升了效率。圖為評測平台Design Arena發佈的榜單,Kimi K2.5位列第一最新資料顯示,Kimi K2.5已登上評測平台Design Arena榜單首位。該平台主要評測AI大模型的“視覺+互動+創意”能力,此結果印證了K2.5在“設計智能體”領域的綜合領先優勢。隨著應用場景的持續拓展與技術的穩步迭代,Kimi K2.5有望在全球範圍內推動AI應用走向更廣、更深的落地,為各行各業的智能化轉型提供切實助力。國產AI大模型影響力持續提升Kimi K2.5模型的快速破圈,不僅是國產AI模型的一次“實戰測試”,更是中國開源模式憑藉技術能力和性價比優勢在全球舞台嶄露頭角的重要體現。從DeepSeek-R1以強化學習最佳化實現“效率革命”,到月之暗面Kimi K2.5實現原生多模態與智能體叢集能力的融合突破,國產大模型在技術體繫上完成了從單點突破到系統化創新的範式躍遷,影響力持續提升。大模型能力是人工智慧走向規模化應用的核心基石。Kimi K2.5的發佈,體現了人工智慧行業將加速從“聊天互動”轉向以“自主執行”為目標的智能體新階段。以“Agent叢集”為例,過去工程師需要逐行編寫程式碼的複雜流程,如今僅憑一條自然語言指令,即可調度上百個智能體協同作業、平行處理。業內分析認為,這一從“單一模型智能”向“多智能體群體協作”的躍遷,是企業級AI開發的下一個前沿。當前,智能體技術正逐漸從實驗室走向實際應用,進入規模化落地階段。在政策引導與產業鏈協同創新的雙輪驅動下,中國在場景、資料與工程化方面的優勢持續釋放,為AI產業形成全球競爭力奠定了基礎。在市場與資本的雙重助推下,頭部企業正將資源聚焦於下一代技術的攻堅。月之暗面創始人楊植麟表示,下一代模型將採用Kimi Delta Attention新型線性注意力機制,進一步提升短長文字任務性能與速度。同時,未來的大模型還將具備更多“審美”和“價值觀”,擺脫同質化發展。“我們致力於在未來十年、二十年,推動K系列模型從K4、K5到K100實現代際跨越。”楊植麟表示,當前多款中國開源模型已成為事實上的行業基準,“中國技術不僅要好用,還要參與制定規則”。 (瞭望財經)
看不懂的月之暗面
圖源:視覺中國“這家公司是我目前最看不懂的。”一位國產大模型上市公司的投資部人士這樣評價月之暗面。在他看來,月之暗面的模型能力本身沒問題。讓人困惑的是,這家公司在行業節奏上的走向。1月21日,在達沃斯世界經濟論壇年會上,月之暗面Kimi總裁張予彤表態:“Kimi很快就會發佈一個新模型。”六天後的1月27日,月之暗面發佈並開源了Kimi K2.5模型。這是Kimi迄今能力最為集中的一次更新:視覺理解、程式碼、多模態輸入、思考與非思考模式、Agent及Agent叢集能力,被統一封裝進同一個All-in-one模型之中。發佈視訊中,楊植麟親自站台介紹著K2.5。模型如期亮相,讓月之暗面在技術層面給了外界一個明確回應。但在資本與公司化層面,它卻走在另一條軌道上。過去一段時間,“AI六小虎”開始分化:智譜、MiniMax先後推進上市。幾乎在同一時間,楊植麟稱,公司有100億元現金,並不著急上市。正是在這種對照下,投資人對月之暗面的“看不懂”,變得更具體。進入行業中場,這是在主動放慢節奏,把籌碼繼續押在技術路徑上,還是不得不承認,已經不在第一梯隊?Kimi K2.5,怎麼樣?一位體驗過Kimi K2.5的AI創業者表示,該模型給他的直觀感受是全面聚焦於“生產力”:核心轉向程式設計、辦公與複雜任務協作,而非擴展零散功能。“它不是靠跑分證明自己,而是靠實際產品能力。”他強調,這種在具體任務中的體感差異,比分數更有說服力。K2.5的取向是一次有跡可循的戰略聚焦,標誌著月之暗面在大模型能力譜系中的位置遷移:其技術標籤已從2024年的“長文字”,轉向2025年的複雜推理、思考過程與Agent任務協同。一位接近公司的人士指出,此輪迭代的價值不在榜單排名,而在工程取向——模型圍繞Agent任務反向設計,核心目標是穩定地拆解任務、呼叫工具並保持長鏈路推理的一致性。這一取向,與月之暗面近年來強調的效率優先路線相呼應。公司方面在多個場合提到,自身並不具備無限堆砌算力的條件,因此更強調演算法與系統層面的效率提升,而非單純擴大訓練規模。在K2系列訓練中,月之暗面使用改進版Muon最佳化器,實現約2倍Token效率提升,並通過QK-Clip等機制增強大規模訓練穩定性;在推理側,則提出Kimi Linear線性注意力機制,在保證效果的同時提升長上下文處理速度。張予彤在達沃斯論壇上將這一策略概括為:僅使用美國頂尖實驗室約1%的資源,完成K2與K2 Thinking的訓練。這也意味著,月之暗面對模型能力的驗證路徑,正轉向工程系統導向。這種變化,同樣體現在產品層。自2025年5月起,Kimi密集推出了Researcher、PPT、Kimi Code等Agent功能;9月進一步上線OK Computer,可呼叫虛擬電腦中的工具完成開發、資料分析、多模態內容生成或製作PPT。Agent被放置在模型能力與商業化之間,逐漸成為關鍵中間層。與此同時,月之暗面有意識地將部分能力驗證場景放在海外。公開資料顯示,K2系列模型發佈後,在OpenRouter等模型呼叫平台上佔據一定份額。市場普遍認為,月之暗面不再追求“大而全”的炫技,而是將籌碼押注在“用工程化能力解決實際問題”這一差異化的方向上。這一策略能否成功,關鍵取決於其Agent叢集等核心功能在真實、複雜業務場景中的穩定性和可靠性能否經得起大規模驗證。同時,在面對DeepSeek等同樣強勁的競爭對手時,如何平衡頂尖性能、使用成本與商業化速度,將是月之暗面接下來的核心挑戰。雙重擠壓:資源戰與評價體系之變更早階段,月之暗面曾是國內較早將重心放在C端通用助手上的大模型公司之一。成立初期,憑藉楊植麟的學術背景,公司在行業內獲得較高期待,被部分從業者視作“中國版OpenAI”,月之暗面很早便選擇以產品形態承接模型能力。2023年8月,在首個模型訓練進入後期階段時,月之暗面啟動AI助理Kimi項目。當時公司規模約50人,Kimi在內部更像是模型能力的展示窗口。產品上線後,Kimi月活使用者一度保持較高增長,並通過投放完成冷啟動,在通用對話類產品中進入頭部梯隊。QuestMobile資料顯示,截至2024年底,Kimi月活使用者超過2000萬,僅次於豆包。多位從業者將那段時間視為月之暗面在C端最為風光的階段。但這種增長,很快就遭遇到了成長的煩惱。進入2025年後,隨著字節豆包、騰訊元寶、阿里系產品線同步推進,這一賽道逐漸演變為高度依賴資源投入的競爭。對擁有平台入口和分發體系的大廠而言,投放成本可以被內部消化;而對獨立創業公司來說,持續投流更像一項難以長期承擔的支出。一位接近月之暗面的人士直言:“創業公司很難跟大廠正面拼投流,比到最後,往往是錢燒得更快,使用者卻留不住。”與此同時,行業對“好模型”的判斷標準也在發生變化。2025年初,DeepSeek等模型的崛起重塑了行業的選擇標準:其幾乎零大規模推廣、純靠技術口碑驅動增長的現象,在業內引發了強烈震動。一位月之暗面員工曾回憶,那段時間公司內部感受到的壓力是雙重的,投流層面打不過大廠,技術聲量又被DeepSeek搶走。但這種衝擊,也促成一次內部認知轉向。公司層面逐漸意識到,對技術型創業公司而言,C端通用助手的使用者規模,並不天然構成技術壁壘。相比講使用者故事,更重要的是在模型能力上形成真實差距。上述投資人將這種變化概括為:“過去是先佔使用者,再補模型;現在是模型能力決定你還能不能留住使用者。”在這一判斷下,楊植麟更傾向於將規模視為階段性結果,而非優先目標。在模型能力尚未形成穩定差距前,過早放大使用者規模,反而可能放大資源消耗與路徑誤判的風險。2025年,月之暗面開始對C端業務做出明顯收斂。產品層面,公司逐步停止大規模投流,收縮泛娛樂方向,先後暫停或放緩Ohai、Noisee等多條C端產品線;技術層面,資源重新集中到基座模型訓練與推理能力;市場層面,重心從國內使用者規模競賽中抽離,轉向海外開發者生態與專業使用者場景;戰略層面,公司從閉源轉向開源,並將產品與商業化的主要增量方向放到海外。整體來看,這是一次主動退出C端正面戰場、更換賽場的選擇。但收縮的代價同樣存在。上述投資人表示,從其瞭解的情況看,公司目前“基本只剩下大模型和Kimi這一條主線”,不少其他產品線已經被放棄,“甚至有多個產品線負責人後來離職創業”。分水嶺時刻:當上市成為同行的標準答案戰略上的主動收縮與聚焦,也讓月之暗面在資本路徑的選擇上,展現出與同業公司截然不同的節奏。成立初期,月之暗面展現出極強的融資能力。公司成立僅三個月後即完成超2億美元天使輪融資,投後估值約3億美元;同年7月完成Pre-A輪融資。2024年進入融資高峰期:2月完成超10億美元A+輪融資,估值升至25億美元;8月完成超3億美元B輪融資,估值提升至33億美元。2025年底,月之暗面完成5億美元C輪融資並實現超募,投後估值約43億美元。表:月之暗面融資時間線然而,與強勁的融資表現形成鮮明對比的是,月之暗面在上市處理程序上的“按兵不動”。在多家同梯隊公司相繼啟動上市處理程序的背景下,月之暗面並未同步推進 IPO。對於一家已具備上市條件、且身處高關注賽道的公司而言,這一選擇並不常見。上述投資人提到,隨著智譜、MiniMax 進入二級市場,大模型公司的評估標準正在發生變化:相比一級市場更強調願景與潛力,二級市場更關注成本結構、毛利率水平與商業化兌現節奏。近期多家公司推動上市,本質上仍是現金流壓力下的融資選擇,而非成功與否的標誌。例如,繼 H 股上市後,智譜仍在推進 A 股上市處理程序。中國證監會官網顯示,其輔導機構中金公司已於 2026 年 1 月 15 日遞交輔導報告。這意味著,“大模型第一股”並未止步於單一資本市場。不同公司間的現金狀況,正在成為決定其戰略節奏的關鍵變數。進入2025年底,行業格局進一步分化:12月中旬,同為“AI六小虎”的智譜和MiniMax相繼通過港交所聆訊並開始招股。就在幾天後的12月31日,久未公開露面的楊植麟內部信曝光,披露公司仍持有約100億元現金,並直言“不急於上市”。此後不久,2026年1月13日百川智能創始人王小川也在媒體溝通會上透露,公司帳上存有30多億元現金。三天後的1月26日,階躍星辰完成超50億元新一輪融資,印奇出任董事長。然而,充足的現金並未消除壓力。在看似從容的“不上市”宣背後,楊植麟、王小川和印奇實則面臨著一個共同的難題:僅憑手中的資金,在技術爆炸的窗口期內建立起真正的護城河。實際上,除了對外部技術競賽的焦慮,對月之暗面來說,公司歷史“舊帳”也構成了另一種維度的壓力。有觀點認為,月之暗面早期分拆相關的股權與仲裁問題尚未完全塵埃落定,在這一狀態下貿然啟動 IPO,本身就存在合規與資訊披露層面的複雜性;相比之下,留在一級市場繼續推進技術與產品演進,操作成本更低。上述投資人補充道,他對月之暗面的判斷依然複雜。公司能夠持續推出模型、持續完成大額融資,說明其在技術能力與資本市場層面具備較強說服力;但月之暗面仍未向外界清晰回答產品形態如何確立、商業化如何展開、穩定使用者從何而來等更基礎的問題。在他看來,月之暗面更像是一家技術能力已被驗證,但公司形態仍在形成中的企業。這種技術先行、商業輪廓尚未完全浮現的狀態,也在一定程度上對應了當前國產大模型行業所處的整體階段。 (深網騰訊新聞)
外媒:Kimi K2 Thinking模型的訓練成本僅460萬美元,刷新DeepSeek紀錄!首波案例盤點
Kimi K2 Thinking模型訓練成本僅460萬美元,海外網友再一次炸鍋Kimi開源K2思考模型後的2天,在海外科技圈又掀起一波“DeepSeek效應”,權威榜單Artificial Analysis直接把它列為世界第一,排在GPT-5、Grok-4和Claude 4.5前面!連HuggingFace創辦人都親自發文說:「Kimi K2是開源AI的重大里程碑,今天就是AI的轉捩點!CNBC報告:據知情人士透露,這款新模型的訓練成本僅為460萬美元,再次刷新了AI模型訓練的成本效率紀錄。這一數字甚至低於先前DeepSeek V3模型聲稱的560萬美元訓練成本,形成鮮明對比的是,OpenAI等美國公司通常需要投入數十億美元進行模型訓練。消息一出,海外網紅直接刷屏啦~~~突然想起:1969年NASA阿波羅登月,電腦只有4KB記憶體。"如果460萬美元是真的,那矽谷那些燒錢的AI實驗室可以關門了。""重新定義效率。新紀錄,甚至超越了DeepSeek R1的訓練效率。我的天。""僅460萬?是美國的1/100?這能是真的嗎?我來給大家速覽海外網友玩瘋了的真實案例。例如有開發者用K2一口氣寫了本科幻小說集,15個短篇故事從一個指令開始,全程自動調用300次工具,一部完整的書就這麼誕生了!日本網友讓它挑戰東京大學2025年數​​學入學試題,模型整整思考了3分鐘,推理過程像現代藝術表演一樣在屏幕上跳舞,最後答案全對——這種題人類學霸都得啃幾小時。還有人把兆參數的K2塞進兩台Mac Studio,M3 Ultra那種,原格式運作完全不降質!量化到int4,每秒15個token,3500個token一口氣就吐完了,推理速度捲到飛起。(三次方AIRX)
Vercel CEO爆Kimi K2智能體精準率超GPT-5 50%?中國國產的風還是吹到了矽谷
刷到了Vercel CEO 大讚Kimi K2 ,是企業內部實際的部署估值93億美元的美國知名雲平台Vercel,其CEO吉列爾莫·勞赫(Guillermo Rauch)在x公開表示,在一項內部智能體真實場景基準測試中,來自中國的Kimi K2模型表現優於GPT-5和Claude Sonnet 4.5根據勞赫於10月19日發佈的資訊,這項測試結果顯示,Kimi K2在運行速度和精準率兩個維度上均有優勢具體資料如下:執行階段間:Kimi K2為2分鐘,而GPT-5和Sonnet 4.5為8-10分鐘。K2的速度是後兩者的5倍精準率:Kimi K2高於60%,而GPT-5低於40%,Sonnet 4.5低於50%。K2的精準率比GPT-5高出50%。勞赫同時提到,借助運行平台,可以實現零成本完成模型切換。Vercel是一家總部位於舊金山的雲端開發平台公司,為開發者提供將網站或AI應用從程式碼部署到線上的服務,其客戶包括Netflix、OpenAI、Stripe等公司。Vercel也是Web開發框架Next.js的建立者和維護者。在2025年10月,該公司完成3億美元融資後,估值達到93億美元,Vercel也是2025年OpenAI開發者大會上重點展示的企業之一矽谷多家公司已接入或轉用除Vercel的測試外,我發現矽谷已出現一股將工作流切換或接入K2模型的小高潮此前在美國科技投資播客《All in》中,“SPAC之王”查馬斯·帕裡哈皮蒂亞(Chamath Palihapitiya)透露,他的公司已經把大量工作需求轉移到Kimi K2模型上。他給出的理由是,K2不僅性能強,並且價格比OpenAI和Anthropic便宜很多查馬斯表示,由中國引領的開源模型,正在挑戰美國閉源模型的領先地位此外,一批科技公司,諸如Cline,Cursor,Perplexity,  Genspark,  Youware等也都宣佈已接入K2模型。客觀講,GPT-5、Claude Sonnet 4.5這樣的頂級模型,在整體實力上還是要領先我們不少,推測Vercel這個結果因為是內部測試,非常規Benchmark的刷分邏輯,所以會有驚喜。理性認清差距的同時,還是應該為國產模型感到高興,畢竟性能和價格擺在這裡,頂尖的矽谷投資人和科技公司已經用行動說明一切。K2 Agent 能力其實在7月K2剛發佈時我就第一時間充了API,當時在Claude code 中簡單配置了一下,我還用K2搗鼓了一個給圖片加上漸變底色的小工具,現在市面上有很多這樣的工具,介面大概長這樣:但基本都是付費的,免費的輸出會有水印,我也不想花錢,抱著試一試的態度就讓K2幫我做了類似的小工具,前後花了1小時,踩了一些坑,核心功能就實現了,不過我的功能比較粗糙,目的是能用就行,反正最終結果就是K2幫我在桌面建了一個終端快捷方式,操作很簡單,點選打開,拖入圖片,就會自動處理,給圖片加上漸變底色我來曬一下,大家不要笑話,確實很粗糙,介面長這樣:比如拖入張圖美女進行漸變底色處理:處理過程:處理完後,會輸出5種效果:🎨 生成: 紫色酷炫... ✅🎨 生成: 薄暮餘暉... ✅🎨 生成: 抹茶拿鐵... ✅🎨 生成: 星夜極光... ✅🎨 生成: 盛夏果實... ✅我放兩張大家感受一下效果:個人感覺還可以,抱著試一試的心態讓K2 做完這個小工具後,我當時內心的直觀感受就是 Kimi K2 確實成了!由於平時比較忙,沒時間最佳化這個工具,後面有時間了再搞一下,到時候免費分發有感興趣的朋友可以後台私信我交流,我給你提供開發文件,不過這個文件也是我讓K2 自己寫的,我一個字都沒寫,哈哈哈😄,大家有時間也可以自己試試讓Kimi K2 復刻一下這個工具(注意全程都在 Claude code 中使用的)國產模型繼續攻城略地,Kimi k2 的Agent能力慢慢經受住了時間,市場和真實生產環境的檢驗,尤其是更新後的K2的兩個版本kimi-k2-0905-Preview 版本和 kimi-k2-turbo-preview 版本均提供 256K 上下文窗口。kimi k2 高速版本,速度更是高達 60-100 Tokens/s,特別適合企業級和高響應智能體應用關於使用Kimi K2 和價格國際版看這裡:https://platform.moonshot.ai/docs/overview國內版看這裡:https://platform.moonshot.cn/docs/overview在 ClaudeCode/Cline/RooCode 中使用 kimi k2 模型,看這裡:https://platform.moonshot.cn/docs/guide/agent-support#%E4%BD%BF%E7%94%A8%E6%B3%A8%E6%84%8F%E4%BA%8B%E9%A1%B9價格:充值與限速:(AI寒武紀)
Kimi K2拿到了世界第一,也殺死了過去的自己
7月12日深夜,月之暗面更新了最新的大模型——Kimi K2,並將模型權重和程式碼全部開源。海內外AI圈瞬間炸鍋。在大模型競技場LMArena排行榜中,Kimi K2綜合排名斬獲全球第五,在開源大模型中位居全球第一,超越Claude 4、DeepSeek-R1-0528。海外AI圈大佬紛紛點贊,Perplexity CEO次日即宣佈將基於K2開啟後訓練。我們原本認為,K2的發佈只不過意味著月之暗面趕上了節奏,獲得了“短暫的呼吸權”。但當深入閱讀技術文件後我們卻發現,K2對於月之暗面以及行業的意義,遠比短暫的第一要更加重大。01 Kimi為何“遲到”?月之暗面曾憑藉獨樹一幟的長上下文技術和天才創始人背景,成為中國“AI六小虎”中最典型的代表。然而從今年1月份,Kimi的聲量卻逐漸式微,模型及產品的口碑開始出現下滑。要理解Kimi K2的轉向,我們必須先理解一個問題:為何Kimi陷入長達數月的沉寂。楊植麟以及月之暗面,在過去一直都是Scaling Law的忠實信徒。他們堅信,更大的模型、更多的資料,必然會湧現出更強的智能。通過卓越的產品體驗吸引使用者,利用使用者資料反哺模型訓練,從而形成“使用者資料”與“模型性能”的增長飛輪。因此月之暗面自創立之初起,就一直採取激進的“買量”策略,以期獲得更多使用者資料來驅動飛輪旋轉。2024年11月,楊植麟在接受採訪時表示,Kimi當前最核心的任務仍然是提升使用者留存。這個戰略聽起來很完美,但它建立在一個脆弱的前提之上——高品質的網際網路資料是取之不盡的。然而2024年底AI技術圈的風向徹底改變。前OpenAI科學家Ilya在演講中,預告了一個殘酷的現實:全球範圍內,可用於高品質預訓練的公開資料,已經被消耗殆盡。這與月之暗面一直堅持的Scaling信仰產生了巨大的矛盾。之後的故事我們已經很熟悉了。深度求索搶先佈局,依靠DeepSeek R1開闢了一種新的技術範式:依靠後訓練強化學習,讓大模型從“模仿學習”轉向更本質的“目標導向學習”來突破智能上限,是這個版本實現AGI的新路徑。儘管月之暗面也意識到強化學習的重要性,但在Kimi 1.5的訓練中,強化學習僅僅只是一個解決長文字 “上下文衰減問題”的輔助環節,而並非如R1那樣聚焦 “提升推理能力”,幫助模型突破智能上限。根據AppGrowing測算,2024年Kimi一年花掉的行銷預算接近9億人民幣,月活流量資料峰值為10月的 3600 萬。而一分廣告費沒花的DeepSeek,單單依靠產品實力和使用者口碑,月活一個月就暴漲至6181 萬。DeepSeek R1的出現直接引發了AI創業公司的存在主義危機。月之暗面的使用者增長策略開始備受質疑。這種巨大的壓力當然不僅僅只有月之暗面一家公司需要面對,R1給行業帶來挑戰是一視同仁的。當舊地圖已經無法通向羅馬,月之暗面必須找到一條全新的航線。02 Kimi K2 趟出的一條新航線Kimi K2 的“新”首先是在模型架構、演算法上的全面革新,更深層次則是月之暗面公司戰略甚至文化的重新出發。在大模型層面,K2取得了兩個突破性進展:(1)將模型參數量擴展到了超大的1T量級(2)K2原生具有呼叫各種工具的能力,提出了“模型即Agent”的新概念這兩個技術創新說起來容易,但真正實現卻十分困難,否則Kimi也不會消耗了大半年的時間才將K2端上來。Kimi是怎麼做到的呢?首先,為了實現K2 1T的參數量規模,Kimi果斷放棄了此前自研的模型架構,轉而積極擁抱DeepSeek V3。根據Kimi團隊的觀點,V3是一個被市場驗證過的、兼具性能和效率的選擇。於是,很多人抨擊K2就是DeepSeek V3的套殼,這顯然又是一種淺薄的傲慢。根據第一性原則,不拘泥於固有思維,只關注方案是否有效、可用,這恰恰反映了Kimi團隊的進步。合適的架構選擇只是第一步,K2與V3在具體參數上的差別非常大。根據團隊此前對Scaling的研究,為了在算力並不充裕的情況下突破智能上限,Kimi選擇減少DeepSeek V3 MoE結構中的Attention Heads(注意力頭)數量,將節省下來的參數空間全部用於增加專家的數量(Experts)。就理論而言,更多的專家數意味著模型擁有更龐大的知識,以及更強的處理複雜問題的潛力。然而,參數的輕微改動卻產生了巨大的麻煩。Kimi發現,此前內部已經驗證過的自研Muon最佳化器,在龐大的資料集的預訓練過程表現極不穩定,會頻繁崩潰。這困擾了Kimi團隊很長的時間,沒有公開的解決方案能應用於穩定15T量級的預訓練資料集。經過長期的嘗試,Kimi巧妙的將Muon與QK-Clip的組合,提出了一種新的MuonClip最佳化器。MuonClip最佳化器能很好地保持在預訓練的穩定性,最終保證了模型在15.5T tokens的巨量預訓練中,實現了零崩潰的穩定表現。它的Loss曲線是這樣的,海外AI圈大佬稱其為“完美的Loss曲線”。K2的第二個壯舉,是提出來一條通往原生Agentic Intelligence(智能體人工智慧)的新思路。眾所周知,繼推理大模型普及之後,Agent 在今年正式成為 AI 新的發展方向。AI Agent與對話類大模型最大的區別,就是AI Agent 能做到主動感知環境、影響環境,具備使用工具的能力。今年我們見證了MCP概念的火熱與普及,Cursor等 AI 程式設計產品開始大規模普及,OpenAI及國內廠商先後也發佈了不少通用Agent產品。在此前的認知中,大模型的使用工具的能力,大多需要通過複雜的提示工程(Prompt Engineering)或在預訓練後進行強化學習(RLHF)來“後補”。但Kimi K2 卻提出了訓練Agent的第三條路徑。在模型訓練之前,Kimi團隊依靠AI生成了成百上千個模擬場景,例如點外賣、寫程式碼、看視訊等,來模擬使用者的各種行為,並據此合成了覆蓋了數百個垂直領域的工具呼叫軌跡,其中既包括真實的MCP(模型上下文協議)工具,也包括合成工具。通俗點說,這就相當於直接將無數使用者未來可能使用Agent的所有場景,提前打包成了全新的、高品質的語料。最後再通過LLM從結果去評估每條模擬結果成功與否,以此篩選出高品質的訓練資料。基於此流程,月之暗面搭建出了一個完全自動化的Agent資料生產工廠!正如Kimi團隊研究員Flood Sung所言,這個生成無數個工作流的機制,十分契合老子的思想:一生二,二生三,三生萬物。這就讓Kimi K2在預訓練中,學到的不僅僅是知識,還包括工具和方法。最終我們看到,Kimi K2具備了很強的原生Agent能力。在我們的測試案例中,Kimi K2幾乎零失誤地實現了我們搭建前端網頁、開發小遊戲的需求。在官方公開的衡量程式碼任務執行能力的LiveCodeBench測試中,K2取得了53.7%的驚人成績,遠超GPT-4.1的44.7%和Claude 3.5 Opus的47.4%。不少從業者反饋,當K2的API完全接入Claude Code之後,能以更低的成本完美的取代原本Claude 3.5的能力,效果甚至直逼最先進的Claude 4.0。03 尾聲:先改變自己,再改變世界最後,我們想聊一聊月之暗面公司本身的戰略轉型。人們熟悉的月之暗面,是一家堅持產品、模型雙管齊下,有時候看起來甚至是更偏向產品驅動的AI公司。這當中自然有面對30億美元融資的無奈。參照過去網際網路時代行業“燒錢”換使用者的慣性思維,似乎只有使用者數量的持續增長,才能回應投資人的期待。網際網路可以通過平台免費+廣告變現的方式,將流量無痛轉化為收入,但AI與廣告在核心上就水火不容:前者強調效率提升,後者分散注意力。真正為AI創業公司創造價值的是付費使用者,付費使用者只會為效率和結果買單。C端使用者在乎的,是模型能力是否足夠聰明、通人性;B端使用者關心的,是AI能否幫企業賺更多錢。這也是為什麼DeepSeek R1能不花一分行銷預算就收穫巨量使用者——它足夠滿足需求,這就夠了。Kimi團隊在社交媒體上透露,公司在DeepSeek爆火後,內部對此前的決策進行了深刻乃至痛苦的反思。自2025年初開始,Kimi完全停掉了所有市場行銷和買量行為。“只要模型做的好,就會獲得市場認可”這是一個Kimi研究員從DeepSeek成功歸納出的結論。在反思會上,楊植麟果斷決定不再更新 K1 系列模型,集中資源搞基礎演算法和 K2,將全部資源和能力重新聚焦到大模型性能的提升上來。截至發稿日,Kimi開源第一的位置似乎已被阿里Qwen再次反超。但這些都不重要,從Kimi K2身上我們能夠看到月之暗面正在改變自己:放棄自研的架構去擁抱更優秀的架構;暫停買量,回歸技術研究,用實力說話;加入開源陣營,分享探索出的新技術路徑……無論是架構還是戰略上,我們可以肯定地說,是DeepSeek喚醒了Kimi。但我們更希望這是一個青出於藍而勝於藍的故事。 (新財富)